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Normalisation de score de verification dans un 
dispositif de reconnaissance vocale de locuteur 

La presente invention concerne la reconnaissance 
vocale automatique de locuteur, et plus 
particulierement la verification d'un locuteur 
autorise pour acceder a une application de service, 
independamment , ou bien en dependance du contenu du 
segment vocal, tel que mot de passe, que prononce le 
locuteur. 

-La verification du locuteur, ou encore 
authentif icat ion vocale, constitue un mode 
ergonomique pour la securisation d'acces. 
Malheureusement , ses performances actuelle,s 

n'assurent pas une securite totale. £; 

Un developpeur de moyen de verification cfe 
locuteur dans un dispositif de reconnaissance 
automatique de parole, objet de 1 ! invention, doit 
faire un compromis entre un taux de fraude autorisee 
correspondant a des imposteurs accedant a 
1 1 application et le 'niveau d'ergonomie requis 
correspondant a un taux d 1 acceptation de locuteurs de 
bonne foi auxquels 1 ' application de service ne peut 
etre refusee. 

Le compromis entre securite et ergonomie 
conditionne la valeur d'un seuil de decision. En 
effet, tout procede de verification de locuteur 
aboutit a un score de verification qui traduit la 
similarity entre un modele vocal de locuteur autorise 
presume et un segment vocal de locuteur inconnu 
souhaitant acceder a 1 ' application . Le score de 
verification est ensuite compare au seuil de 
decision. Selon le resultat de cette comparaison, le 
dispositif decide d l accepter ou de rejeter le 



locuteur inconnu, c'est-a-dire de l'autoriser ou 
l'interdire a acceder a 1 1 application . Si le seuil de 
decision est severe et done eleve, on acceptera a 
tort peu d 1 imposteurs mais on rejettera des locuteurs 
autorises. Si le seuil de decision est lache et done 
faible, on rejettera peu de locuteurs autorises mais 
on acceptera beaucoup d ' imposteurs . 

La difficult^ reside done dans la determination 
du seuil de decision, d'autant que pour un meme taux 
d 1 acceptation, le seuil est variable d'un locuteur a 
1' autre ("A COMPARISON OF A PRIORI THRESHOLD SETTING 
PROCEDURES FOR SPEAKER VERIFICATION IN:, THE CAVE 
PROJECT", J.-B. PIERROT et al . , Proceedings ICASSP , 
1998) . 

Ainsi la distribution des scores de vez^if icat ion 
depend du modele vocal de locuteur sur lesquels ils 
sont calcules, Un f onctionnement optimal de la 
verification de locuteur necessite done un seuil de 
decision respectif par modele. 

Une fagon de s'affranchir de la sensibilite au 
seuil par locuteur reside dans la normalisation de la 
distribution des scores de verification. Si par une 
transformation appropriee, les distributions des 
scores sont rendues independantes du modele de 
locuteur, on resout alors le probleme de la recherche 
d'un seuil par locuteur, c'est-a-dire par modele de 
locuteur. Le probleme est done deplace vers la 
recherche d'une normalisation des scores. 

Dans la methode dite n z-norm ,r selon 1' article 
intitule "A MAP APPROACH, WITH SYNCHRONOUS DECODING 
AND UNIT-BASED NORMALIZATION FOR TEXT - DEPENDENT 
SPEAKER VERIFICATION", Johnny MARIETHOZ et al., 
Proceedings ICASSP, . 2000 , la distribution des scores 
de verification est normalisee par des parametres \i x 
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et cr x de la distribution des scores d'imposteurs 
estimes sur une population d 1 imposteurs » Si S X (Y) est 
le score de verification pour un segment vocal a 
tester Y par rapport a un modele de locuteur autorise 
X; le score de verification normalise par la methode 
z-norm est : 

s x (Y) - H x 
S X (Y) = X 

ou \i x et a x sont respect ivement la moyenne et 
I'ecart-type de la distribution des scores 
d'imposteurs sur le modele X. Ces parametres de 
normalisation sont estimes prealablement , lors de la 
phase d 1 apprentissage du dispositif, avec une base de 
donnees d 1 enregistrements qui sont consideres eomme 
des occurrences plausibles d ! imposture pour le modele 
de locuteur X. <i* 

' La necessaire base de donnees d 1 enregistrements 
de locuteurs consideres comme imposteurs par rapport 
au locuteur autorise est concevable dans le cas de la 
verification de locuteur en fonction d'un mot, de 
passe fixe et connu du dispositif de reconnaissance 
vocale. Cela suppose que le developpeur de 
1 1 application de service aura fait auparavant une 
col'lecte d 1 enregistrements de personnes pronongant le 
mot de passe dans un contexte proche de 1 1 application 
pour que ces enregistrements representent des 
occurrences plausibles de tests d' imposture. Cette 
necessaire collecte d' enregistrements rend difficile 
le changement de mot de passe dans le cas d'un 
systeme a mot de passe fixe par le dispositif et rend 
impossible le choix du mot de passe par le locuteur 
autorise, utilisateur de 1 1 application . 

En ef.f et , dans le cas ergonomique ou le mot de 
passe est choisi par 1 1 utilisateur lui-meme lors de 



sa phase d 1 apprentissage , il est pratiquement 
impossible d'effectuer une. collecte d ' enregistrements 
de ce mot de passe par un ensemble d'autres 
locuteurs . 

D' autre part, pour ameliorer 1 1 ergonomie de 
certaines applications est prevue une phase 
d ' apprentissage, dite enrolement, tres courte au 
cours de laquelle une empreinte vocale du locuteur 
utilisateur autorise est creee en generant un modele 
vocal de celui-ci. 

Pour enrichir la model isat ion, le modele vocal 
de locuteur autorise est adapte au fur et . a mesure 
des utilisations avec des enregistrements de parole 
valides par 1 1 application ou par un algorithme de 
decision, comme divulgue par I 1 article " ROBUST 
METHODS OF UPDATING MODEL AND A PRIORI THRESHOLD IN 
SPEAKER VERIFICATION", Tomoko MATSUI et al . , 
Proceedings ICASSP, 1996, p. 97-100. Lorsqu'un 
utilisateur a ete bien reconnu, sa parole enregistree 
pendant la demande d'acces est utilisee pour mettre a 
jour son modele. Cette rnise a jour enrichit la 
model isat ion et prend en compte les evolutions de la 
voix du locuteur autorise au cours du temps. 

Puisque la modelisation s' enrichit, la 
distribution des scores est modifiee et le seuil de 
decision defini initialement peut etre inadapte a 
1 1 application . En effet, plus le modele est determine 
avec beaucoup de donnees, . meilleurs sont les scores 
de verification dans le cas d'un locuteur-utilisateur 
autorise. Si le seuil de decision est positionne 
assez -l^che pour ne pas rejeter trop d'utilisateurs 
autorises dans la configuration initiale, il est 
egalement assez permissif et laisse passer un grand 
nombre d ' imposteurs . Comme le modele vocal de 
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locuteur est enrichi au fur. et a me sure- cies demandes 
d'acces, les distributions des scores sont modifiees, 
ce qui peut conduire a un tres faible re jet des 
locuteurs autorises et a un taux d ' acceptation des 
5 imposteurs relativement eleve, alors qu'une 
modification du seuil de , decision benef icierait 
. pleinement de 1 ' enrichissement de la modelisation et 
conserverait un faible rejet a tort tout en ayant un 
faible taux d 1 acceptation d 1 imposteurs . 

10 Dans 1 ! article precite, MATSUI et al . proposent 

d f adapter le seuil de decision lorsque le modele de 
locuteur est adapte . Cette adaptation est done faite 
directement sur le seuil de decision pour un point de 
f onctionnement attendu. 

15 L' adaptation du seuil propose par MATSUI et al . 

suppose que le dispositif a conserve tous lesl 
enregistrements de parole necessaires ai 
1 1 apprentissage et 1' adaptation du modele de locuteur" 
pour pouvoir determiner un ensemble de scores de: 

20 verification qui vont servir a I 1 estimation d'un ( ; 
seuil de decision pour cet ensemble. Ce seuil est 
interpole avec l ! ancien feeuil pour obtenir le nouveau 
seuil . •. 

Les inconvenients de cette adaptation de seuil 

25 sont les suivants. D'une part, des occurrences 
d ' enregistrements d' imposteurs sont necessaires, ce 
qui est irrealiste dans certaines applications. 
D' autre part, les enregistrements ■ de parole de 
locuteur doivent etre conserves pour re-estimer le 

30 seuil de decision ce qui implique un cout en. memoire 
non negligeable. Enfin,- la re-estimation etant faite 
au niveau du seuil de decision, e'est-a-dire pour un 
point de f onctionnement recherche, si l'on souhaite. 
modifier le point, -de f onctionnement pour des 



considerations ergonomiques par exemple, alors tous 
les- paraiiietres de 1 1 interpolation sont a modifier. 

L'objectif principal de 1 ' invention est de 
5 normaliser le score de verification pour qu'il soit 
compare a un seuil de decision toujours pertinent, 
independant du locuteur, tout en assurant que le 
score de verification evolue avec la voix du locuteur 
autorise, sans recourir a des enregistrements 
10 supplementaires d 1 imposteurs . En consequence, 
relativement au dispositif de reconnaissance de 
parole, 1' invent ion vise a reduire 1 ■"' espace de 
, . .memoire necessaire a des enregistrements 
supplementaires d f imposteurs , tout en garantissant 
15 une decision plus precise et rapide. 

Pour atteindre cet objectif, un dispositif pour 
reconnaitre automat iquement la voix d'un locuteur 
autorise a accede r a une application, comprend un 
"20 ■ rnoyen pour generer des parametres d'un modele vocal 
d ' acceptation relatif a un segment vocal prononce par 
■ le locuteur autorise et des parametres d'un modele 
vocal de refus prealablement pendant une phase 
d 1 apprentissage , un rnoyen pour normaliser par des 

25 parametres de normalisation un score de verification 
de locuteur dependant du rapport de vraisemblances 
entre un segment vocal a tester et les modeles 
d 1 acceptation et de refus, et un rnoyen pour comparer 
le score de verification normalise a un premier seuil 

30 afin de n'autoriser l'acces du locuteur ayant 
prononce le segment vocal a tester a 1 ' application 
que si le score normalise est au moins aussi grand 
que le premier seuil. Ce dispositif est caracterise, 
selon 1' invention, en ce qu'il comprend un rnoyen pour 

35 mettre a * jour au moins 1 'un des parametres de 
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normalisation en fonction .d'une valeur precedente 
dudit parametre et du score de verification a chaque 
test de segment vocal settlement lorsque le score 
normalise est au moins egal a un deuxieme seuil qui 
5 est au moins egal au premier seuil. 

L 1 expression "au moins egal a" signifie une 
variable superieure ou egale a un seuil . 

Si 1 ' on souhaite modifier le point de 
f onctionnement , le premier seuil est modifie sans 
10 necessiter l'ajustement des parametres. 

Le ' score normalise est ainsi mis a jour en 
ligne, au fur et a mesure des tentatives de > 
verification de locuteur et done des demandes d'acces 
a 1 1 application, si bien que le score normalise 

• v 

15 evolue avec les changements de la voix du locut.eur. .■<>' ^. 

La mise a jour en fonction au moins d'un parametre et •'. , \{- 

non d f un seuil permet de modifier le scored de f^:^ 
decision normalise independamment du point de * .i: 

f onctionnement requis par 1 1 application. ■:■ /.. 

20 Le parametre de normalisation mis a jour peut . 

etre representatif de la valeur moyenne statist'ique v-r^ ,Vj 

du score de verification' de locuteur ou de l'ecart- ; 
type du score de verification de locuteur, ou bien 
ces deux parametres sont mis a jour. 

25 La mise a jour du score normalise est encore 

amelioree lorsque le dispositif comprend un moyen 
■ pour mettre a jour au moins l f un des parametres du 
modele d ' acceptation en fonction d'une valeur 
precedente dudit parametre de modele seulement 

30 lorsque le score normalise est au moins egal au 
deuxieme seuil. 

D'autres caracteristiques et avantages de la - 
presente invention apparaitront plus clairement a la 
35 lecture de la description suivante de plusieurs 



realisations preferees de 1' invention en reference 
aux dessins annexes correspondants dans lesquels : 

- la figure 1 est un bloc-diagramme schematique 
d'un systeme de telecommunications avec un serveur 
contenant un dispositif de reconnaissance vocale de 
locuteur ; 

- la figure 2 est un bloc-diagramme fonctionnel 
d'un moyen d 1 apprent issage inclus dans le dispositif 
; et 

- la figure 3 est un bloc-diagramme fonctionnel 
d'un moyen de verification de locuteur inclus dans le 
dispositif. 

En se referant a la figure 1, on a represents 
schematiquement un contexte prefere d r utilisation du 
dispositif de reconnaissance vocale automatique de 
locuteur DR selon 1' invention. Ce contexte a trait un 
systeme de telecommunications client -serveur dans 
lequel un terminal de locuteur TE tel qu 1 un poste 
telephonique ou un ordinateur personnel muni d'un 
modem, ou un terminal mobile, tel qu'un 
radiotelephone mobile est relie a un serveur vocal 
telephonique interactif SV contenant le dispositif 
DR, a travers un reseau d'acces telephonique ou 
radiotelephonique cellulaire RA. Lorsqu'un locuteur 
autorise souhaite acceder a une application de 
service predetermines AP, un mot de passe MP ou une 
phrase prononce par un locuteur autorise L devant le 
microphone MI du terminal TE est transmis au serveur 
SV en reponse a une invitation de transmettre le mot 
de passe au cours d'un dialogue avec le serveur vocal 
SV. Le dispositif DR analyse le mot de passe MP et 
donne acces a 1 ' application predeterminee AP lorsque 
la voix de locuteur L a ete correctement reconnue , 
Par exemple, 1 ' application AP off re des services 
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geres dans un serveur d 1 application SAP relie au 
serveur vocal SV a travers un reseau de paquets RP, 
tel que le reseau internet. 

Selon d'autres variantes d 1 application, le 
5 dispositif DR est implements dans un terminal, tel 
qu r un poste telephonique , un ordinateur personnel, un 
radiotelephone mobile, ou un assistant numerique 
personnel . 

10 Comme montre aux figures 2 et 3 , le dispositif 

de reconnaissance vocale automatique de locuteur DR 
selon l 1 invention comprend f onctionnellement un moyen 
d ' apprentissage compose de trois modules logiciels 
Al, A2 et A3, et un moyen de verification automatique 

15 de locuteur compose de six modules logiciels VI a:V6. 
lis cooperent avec une portion de memoire>non 
volatile dans le serveur pour memoriser divers 
parametres dont la plupart sont mis a jour, servant a 
des determinations de score de verification normalise 

20 defini plus loin. 

Le moyen d 1 apprentissage determine des 
parametres caracterisant principalement un modele 
vocal du locuteur autorise L a reconnaitre. II 

25 comprend un module d ' acquisition de parole Al 
connecte a une source acoustique, tel que le 
microphone MI, un module d' analyse acoustique A2 dont 
la sortie est bouclee sur une entree iterative de 
modeles vocaux pendant une phase d 1 apprentissage, et 

30 un module de generation de modele de locuteur A3 . 

La phase d 1 apprentissage automatique, dite 
egalement enrdlement, est fondee par exemple sur la 
modelisation statistique d • un mot de passe MP par des 
chaines de Markov cachees HMM (Hidden Markov Model). 

35 On pourra se reporter • au sujet des methodes 



statist iques de modelisation markovienne cachee a 
1' article de Lawrence R. RABINER , n A Tutorial on 
Hidden Markov Models and Selected Applications in 
speech Recognition" , Proceedings of the IEEE, vol. 
77, No, 2, February 1989, p. 257-286. Le mot de passe 
MP est prononce devant le microphone MI pendant N 
occurrences de parole de duree predeterminee chacune, 
typiquement N = 3 fois, par le locuteur L autorise a 
acceder a 1 ' application AP dans le serveur vocal SV. 
N versions du mot de passe sont alors memordsees dans 
le module d ' acquisition Al, apres conversion 
analogique-numerique . Le mot de passe MP est choisi 
librement par le locuteur L et est inconnu ■ a priori 
du dispositif de reconnaissance vocale de locuteur 
DR. Aucun autre enregistrement du mot de passe 
prononce par des locuteurs autres que le locuteur 
autorise L n 1 est necessaire pendant la phase 
d 1 apprentissage . 

En variante, la composition des mots de passe 
est libre, c'est-a-dire est const ituee par tout 
segment vocal, et peut etre changee au gre du 
locuteur autorise a chaque tentative de 
reconnaissance de sa voix. 

Au fur et a mesure des versions analysees du mot 
de passe prononce, le module d' analyse A2 estime, 
d'une maniere iterative connue, des parametres 
predetermines m d ' un modele de Markov cache X, afin 
d 1 en deduire les moyennes de distribution gaussienne 
de ces parametres de modele. Le module A2 herite 
d' autres parametres d ' un modele vocal general qui ont 
ete prememorises dans le module A2 , a cause du faible 
nombre de donnees disponibles resultant de 1' analyse 
des versions du mot de passe en petit nombre N. Les 
parametres du modele vocal d 1 acceptation X ainsi 
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generes du locuteur autorise L sont memorises dans le 
module A3 . . 

Le rnodele vocal A,, dit egalement reference 
acoustique, est caracteristique de la voix du 
locuteur autorise L et peut etre associe en .memoire 
du serveur SV a un identif icateur du locuteur, tel 
qu 1 un code secret et compose au clavier du terminal 
TE avant de prononcer le mot de passe MP. 

Parallel ement a la construction - du rnodele 
d ' acceptation X } le module d' analyse acoustique A2 
construit un rnodele vocal de refus tn, dit egalement 
rnodele alternatif (background model) ou anti-model. 
Les parametres du rnodele de refus m sont connus et 
pre-memorises dans le serveur SV pendant la phase 
d\ apprent is sage . lis sont representatif s d'un rnodele 
vocal ,, moyen n d'un nombre eleve de locuteurs; 
quelconques, et par consequent d f un rnodele vocal, 
d 1 imposture . 

A la fin de la phase d 1 apprent issage , le module 
de generation A3 determine des valeurs initiales de 
parametres (I^ 0 et x^ 0 necessaires a la normalisation 
de score de verification selon 1 ! invention, estimees 
sur un corpus de donnees d ' apprent issage definies 
prealablement notamment en fonction de 1 ' appl ication 
AP a laquelle le locuteur accede par le mot de passe 
reconnu . Ces donnees d 1 apprent issage ont ete ecrites 
prealablement dans la memoire du serveur . SV et 
permettent au module A3 de determiner des valeurs 
initiales jl^ 0 et x^ 0 de parametres de normalisation 
dependant notamment de parametres des modeles vocaux 
X et w et utilisees dans des fprmules recurrentes de 
ces parametres lors d f un premier test, et des 
facteurs d ' adaptation et x 0 respectivement pour 

les parametres de normalisation et 5^ . 



En variante, au lieu de generer des modeles 
parametriques du . type HMM, les modeles d 1 acceptation 
et de refus m sont generes selon une model i sat ion 
GMM (Gaussian Mixture Model) fondee sur le melange de 
distributions normales, dites distributions 
gaussiennes, relatives a des parametres. La 
model i sat ion GMM est par exemple def inie dans 
1 'article de Douglas A. REYNOLDS, "Speaker 
identification and verification using Gaussian 
mixture speaker models", Speech Communication 17, 
1995, p. 91-108. 

Lors d'une tentative d'acces a 1 1 application AP, 
par exemple apres une validation . du code secret 
compose precite par le serveur vocal SV, le locuteur 
L prononce devant le microphone MI un segment vocal 
contenant le mot de passe MP, soit une occurrence de 
signal de parole X pendant une duree T, afin que la 
chaine des modules VI a V6 montree a la figure 3 
verifie que le locuteur est bien celui qui a prononce 
le mot de passe pendant la phase d 1 apprentissage . La 
duree T est exprimee en nombre de portions de duree 
predeterminee de 32 ms environ du segment vocal, 
appelees trames (frames) . Le nombre T est variable en 
fonction de la vitesse de locution du locuteur. 

Les modules d f acquisition Al et A2 analysent 
acoust iquement le signal X contenant le mot de passe 
MP qui vient d'etre prononce, et produisent un signal 
vocal de test X compose d'une suite de T vecteurs de 
coefficients cepstraux. 

Des modules de similarity VI et V2 evaluent les 
similarites entre le signal vocal de test X produit 
par le module d' analyse acoust ique A2 d ! une part, et 
le modele vocal d ' acceptation X et le modele vocal de 
refus & lus en memoire par le module A3 d 1 autre 
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part, les parametres m des modeles- X et m ayant ete 

mis a jour a la fin de la verification de voix de 

locuteur precedente, comrae on le verra plus loin. Les 

similarites sont exprimees par des probabilites 

conditionnelles P(X|A,) et P(X|*cj) respectivement 

produites par les modules VI et V2 et caracterisant 

la vraisemblance que le signal vocal de test observe 

X soit representatif du locuteur autorise ayant 

prononce un segment vocal represents par le modele 

d 1 acceptation X et la vraisemblance que le signal 

vocal de test observe X soit representatif de 

n'importe quel locuteur ayant pu prononce un segment 

vocal represents par le modele de refus m, 

Le module V3 determine le score de verification 

B v en fonction des probabilites produites,. selon la 

relation suivante : :v 
1 

S v = - (log P(X / X) - log P(X / w) ) . 

Le score est proportionnel au rapport de 
vraisemblances relatives au modele d' acceptation X 
representatif du locuteur autorise et au modele de 
refus w representatif de n f import e quel locuteur. II 
exprime la confiance accordee au signal vocal de test 
observe X. Plus le score S v est eleve, plus la voix 
du locuteur a l'origine du signal vocal de test X 
presente des caracteristiques proches de celles du 
modele d 1 acceptation X. T denote le nombre de trames 
(frames) conteriues dans le segment vocal MP a tester. 

Le module V3 determine egalement un score de 
verification normalise S N en fonction du score de 
verification de locuteur S v et de deux parametres de 
normalisation et 5^ du modele d ' acceptation X 

representatif de la voix du locuteur autorise L, 
selon la relation suivante : 

S N - — ^— — . 

®x 



Les deux parametres fix et x^ resultent d'une 
mise a jour selon les relations de recurrence 
suivantes, a la fin de la verification de locuteur 
ayant precede celle en cours : 

°X*^Q-*o)°X+*o( s V - fix) 2 • 

Le premier parametre de normalisation jx^ 

represente la valeur moyenne statistique, c'est-a- 

dire l'esperance mathematique du score de 

verification de locuteur. La mise a jour du premier 

parametre est ponderee par un facteur d' adaptation 

predetermine x^ inferieur a 1 . Le deuxieme parametre 

de normalisation 5^ represente l'ecart-type du score 

de verification S v egal a la racine carree de la 

difference de la valeur quadratique moyenne du score 

2 

S v et du carre de la valeur moyenne statistique ji^ . 

La mise a jour du deuxieme parametre est ponderee par 
un autre facteur d' adaptation predetermine x 0 
inferieur a 1. Ainsi les parametres de normalisation 
et 5^ sont mis a jour en ligne par estimation de 
leurs moyennes sur les verifications de locuteur 
precedentes. 

Les valeurs des parametres jl^ et dans les 

membres droits des deux relations de recurrence 
precedentes ont ete determinees au cours de la 
verification de locuteur precedant celle en cours et 
sont lues avec les facteurs d' adaptation x^ et x a par 
le module V3 avant la determination du score S N . Lors 
de la premiere verification de locuteur succedant a 
la phase d 1 apprentissage , . les parametres initiaux 
jl^o et 5^0 sont lus par le module V3 en tant que 
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parametres [i% et - servant a la premiere, 

determination du score normalise S N . 

La normalisation du score de verification de 
locuteur S v en le score normalise S N suit 
avantageusement les variations du score de 
verification, c ! est-a-dire de la voix du locuteur, 
representees par les parametres \x% et o^, * Comme on 
le verra ci-apres, 1' evolution de la- voix du locuteur 
autorise L est reportee dans le score normalise S N 
par une mise a jour des parametres jl^ et 5^, mais 
egalement de parametres de modele m ayant servis a la 
modelisation initiale . 

Ensuite le module de decision V4 compare le 
score normalise S N a un premier seuil predetermine 
TH1 . Le module V4 autorise 1'acces du locuteur a 
1 ' application de , service AP lorsque le score 
normalise S M est egal ou superieur au seuil 
predetermine TH1 . 

Au contraire, si S N <TH1, 1'acces a 1 1 application 
de service AP est refuse au locuteur. Aucune mise a 
jour de parametres n' est eff ectuee puis que ; le 
locuteur est considere comme un impost eur . ' De 
preference, le serveur vocal SV invite le locuteur a 
prononcer quelques fois encore le mot de passe MP, 
par exemple trois fois. 

La decision d'acces eff ectuee dans le module V4 
depend du seuil TH1 constant et done independant du 
locuteur autorise. Selon 1' invention, la decision 
depend plutot du score de verification normalise S N 
dont les parametres tels' que les facteurs et x Q 
sont choisis une fois pour toutes en dependance de 
1 1 ergonomie souhaitee pour acceder a 1 r application 
AP. Si le type d 1 application est change, le seuil TH1 • 
airisi qu'un deuxieme seuil TH2 peuvent etre modifies 



par le gestionnaire de la nouvelle application dans 
le serveur SV. 

Si 1'acces est autorise, le module de validation 
V5 compare le seuil normalise S w au deuxieme seuil 
TH2 de preference plus grand que le premier seuil 
TH1, bien que les seuils puissent etre egaux. Le 
module d 1 adaptation V6 ne met a jour des parametres 
que si le score normalise est plus grand que le seuil 
TH2 , c'est-a-dire lorsque par exemple la voix du 
locuteur autorise a sensiblement changee, notamment a 
cause du vieillissement ou d'une laryngite du 
locuteur. 

Comme deja dit, les parametres de normalisation 
ju^ et ®X sont mis a jour selon les deux relations 
de recurrence ci-dessus, en fonction du score de 
verification S v qui vient d'etre determine par le 
module V3 et des valeurs de parametres jl^ e t Sj^ qui 
ont ete determinees lors de la verification de 
locuteur precedente . 

De preference, l'un ou les deux facteurs 
d* adaptation et x a varient en fonction du nombre 
d 1 adaptations , c 1 est-a-dire du nombre de mises a jour 
de parametre de normalisation realisees dans le 
module V6 depuis la phase d 1 apprentissage afin 
d 1 adapter rapidement les parametres de normalisation 
pour qu'ils convergent rapidement lors de premieres 
adaptations, puis de moins en moins ensuite jusqu'a 
suspendre 1 ' adaptation'. Plus le facteur de vitesse 
d' adaptation x^, x G est grand, plus 1' adaptation du 
parametre jl^ , 5^ est rapide. 

Le module V6 met egalement a jour chaque 
parametre m au moins du modele d r acceptation X et 
eventuellement du modele de refus vs f de maniere a 
diminuer le taux d' imposture represents* par la 
probability P (X|tn) . La mise. a jour de chaque 



1 er depot 



17 



parametre de modele m est basee sur une adaptation 
incrementable selon la relation de recurrence 
suivante : 

N AP m AP +N adapt m adapt 

5 m = — ■ XT ■ ~ : - 

NAp+N^apt 

m AP et N AP ^ denotent respect ivement la moyenne de la 
distribution gaussienne, dite egalement distribution 
normale, de la densite de probabilite du parametre de 

10 modele m au cours de la phase d 1 apprentissage et le 
nombre de trames dans les segments vocaux, c'est-a- 
dire dans les mots de passe r ayant servi a estimer 
; les moyennes des distributions gaussiennes relatives 
aux modeles de Markov caches X et w. Le parametre 

15 m adapt denote la moyenne de la distribution gaussienne 
de la densite de probabilite du parametre de modele m 
qui a ete determinee lors de la mise a jour qui vient 
d'etre realisee et done qui reflete I 1 evolution du 
parametre m au cours des mises a jour, apres la phase 

20 d r apprentissage . N adapt denote le nombre de trames 
ayant servi a estimer la moyenne de la distribution 
gaussienne du parametre de modele m pour la mise a 
jour qui vient d'etre realisee. Le nombre.de trames T 
du signal vocal a tester varie d ! une verification a 

25 la suivante en fonction notamment de la vitesse de 
locution du locuteur. . 

Apres la mise a jour, le module V6 memorise les 
nouvelles valeurs des parametres m des modeles vocaux 
X et w et des parametres de normalisation fix et 

30 qui serviront a la determination des scores S v et S N 
dans le module V3 lors du prochain test de voix de 
locuteur. 

En variante, notamment af in de diminuer -la duree 
de chaque verification de locuteur, seulement l T un 



des parametres de normalisation fl^ et u% est mis a 
jour, de preference seulement le pararnetre de valeur 
moyenne statistique jl^ ce qui s ' impose en attribuant 
la valeur nulle au facteur d ! adaptation t c . De meme, 
au moins l l un ou quelques-uns des parametres de 
modele m sont seulement mis a jour, ce qui s ■ impose 
en attribuant la valeur nulle aux nombres de trames 
N adapt pour les autres parametres de modele qui ne 
sdnt pas a mettre a jour. 
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RE VEN D I CAT I ON S 

1 - Dispositif pour reconnaltre automat iquement 
la voix d'un locuteur autorise a acceder a une 

5 application (AP) , comprenant un moyen (Al, A2 , A3) 
pour generer des. parametres (m) d'un modele vocal 
d' acceptation : (X) relatif a un segment vocal (MP) 
prononce par .le locuteur autorise et des parametres 
(m) d'un modele vocal de refus (w) prealablement 

10 pendant une phase d ' apprentissage, un moyen (VI, V2, 
V3) pour normaliser par des parametres de 
normalisation un score de verification de locuteur 
dependant du rapport de vraisemblanees entre un 
segment vocal a tester (X) et les modeles 

15 d* acceptation et • de refus, et un moyen (V4) pour 
comparer le score de verification normalise (S N ) a un 
premier seuil. (THl) afin de n'autoriser l'acces du 
locuteur ayant prononce le segment vocal a tester a 
1 1 application (AP) que si le score normalise est au 

20 moins aussi grand que le premier seuil, caracterise 
en ce qu'il comprend un moyen (V6) pour mettre a jour 
au moins I 'un ( ft^ ) des< parametres de normalisation 
en fonction d'une valeur precedente dudit parametre 
et du score de verification (S v ) a chaque test de 

25 segment vocal seulement lorsque le score normalise 
(S. N ) est au moins egal a un deuxieme seuil (TH2) qui 
est au moins egal au premier seuil (THl) . 

2 - Dispositif conforme a la revendicat ion 1, 
30 dans lequel le parametre mis a jour est representat if 

de la valeur moyenne statistique ( jx^ ) du score de 
verification de locuteur (S v ) , 

3 - Dispositif conforme a la revendicat ion 2, 
35 dans lequel la valeur moyenne statistique ( fix ) du 



score de verification Sy est mise a jour selon la 
relation suivante : 

&k 55 0- - + V s v 

dans laquelle est un facteur d' adaptation 

predetermine. 

4 - Dispositif conforme a la revendicat ion 3, 
dans lequel le facteur d 1 adaptation predetermine 
varie en fonction du nombre de mises a jour de 
parametre de normalisation . 

5 - Dispositif conforme a 1 1 une quelconque des 
revendications 1 a 4, dans lequel le parametre mis a 
jour est representatif de l'ecart-type ( 5^ } du score 
de verification de locuteur (S v ) . 

6 - Dispositif conforme a la revendication 5, 
dans lequel l'ecart-type aj^ du score de verification 
S v est mise a jour selon la relation suivante : 

dans laquelle t g est un facteur d ! adaptation 
predetermine . 

7 v Dispositif conforme a la revendication 6, 
dans lequel le facteur d 1 adaptation predetermine x Q 
varie en fonction du nombre de mises a jour de 
parametre de normalisation . 

8 - Dispositif conforme a 1 1 une quelconque des 
revendications 1 a 7, comprenant un moyen (V6) pour 
mettre a jour au moins 1 1 un des pararaetres (m) du 
modele d 1 acceptation (X) en fonction d T une valeur 
precedente dudit parametre de modele seulement 
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lorsque le score normalise (S N ) est au rnoins egal au 
deuxieme seuil (TH2) . 

9 - Dispositif conforme a la revendicat ion 8, 
dans lequel le parametre de modele m est mis a jour 
selon la relation suivante : 



N AP m AP + Ngdapt^adapt 
N AP+N adapt 



dans laquelle m AP et N AP denotent respectivement la 
moyenne de la distribution gaussienne de la densite 
de probabilite du parametre de modele (m) au cours de 
la phase d 1 apprentissage et le nombre de trames dans 
les segments vocaux ayant servi a es timer des 
moyennes de distributions gaussiennes relatives aux 
modeles d 1 acceptation (X) et de refus (xn) f m^ dapt 
denote la moyenne de la distribution gaussienne de la 
densite de probabilite du parametre de modele (m) 
determinee lors de la mise a jour qui vient d'etre 
realisee, et N adapt denote le nombre de trames ayant 
servi a est imer la moyenne de la distribution 
gaussienne du parametre de modele (m) pour la mise a 
jour qui vient d'etre realisee. 

10 - Dispositif conforme a 1 ? une quelconque des 
revendicat ions 1 a 9, dans lequel le score normalise 
S N est determine en fonction du score de verification 
de locuteur S v et de deux parametres de normalisation 
mis a jour (1^ et 5^ , selon la relation suivante : 

S N = — f 

les parametres p\ et a% etant respectivement la 
valeur moyenne statistique et l'ecart-type du score 
de verification de locuteur. 
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